3.2 Visión general
El desarrollo de VisSE, cuya meta es cumplir el objetivo técnico de la tesis de procesar la SignoEscritura, puede entenderse a través de tres esfuerzos paralelos, que comprenden distintas áreas relacionadas de la informática y que se corresponden con los sub-objetivos técnicos que planteamos en la introducción.
El primer esfuerzo se enfoca en la ciencia de datos, y es crucial para disponer de un corpus anotado sobre el cual trabajar. La dimensión de este corpus debe ser adecuada para obtener resultados significativos, y su anotación debe realizarse con un nivel de detalle que permita su posterior análisis. Este esfuerzo incluye la recogida de datos, el diseño del esquema de anotación, y la estructuración del corpus resultante, como se detalla en la sección 3.3. Dicho corpus ha sido publicado en línea (Sevilla, Lahoz-Bengoechea, y Díaz 2022), y el esquema de anotación se incluye en el capítulo 7. Adicionalmente, se ha redactado un artículo para la revista Language Resources and Evaluation, que se encuentra en el capítulo 6 y que ha sido aceptado para publicación con cambios menores.
El segundo esfuerzo se orienta hacia el procesamiento y la algoritmia, aplicando los datos anotados del corpus para entrenar y evaluar algoritmos de Inteligencia Artificial en la tarea de reconocer la SignoEscritura. Se utiliza la técnica de las redes neuronales profundas (Deep learning). También se integra el conocimiento experto sobre la SignoEscritura y las observaciones obtenidas del primer esfuerzo, permitiendo aumentar los algoritmos de aprendizaje con reglas lógicas y superando algunos de los obstáculos que presenta un enfoque directo o naïve. El proceso está descrito en la sección 3.4, y los detalles pueden encontrarse en el artículo “Automatic SignWriting Recognition” (Sevilla, Díaz, y Lahoz-Bengoechea 2023), publicado en la revista IEEE Access, y en el capítulo 8 de este documento.
El tercer esfuerzo en esta investigación se centra en el desarrollo de software. Mediante la aplicación de técnicas de ingeniería de software, las investigaciones resultantes de los otros esfuerzos han quedado codificadas de una manera reproducible y formal. Este proceso ha involucrado la incorporación de las mejores prácticas en el desarrollo de software, así como el uso de herramientas modernas y de código abierto. El trabajo realizado también ha quedado publicado libremente en abierto.
Dentro de este esfuerzo, descrito en la sección 3.5, se encuentra Quevedo, una librería que encapsula los algoritmos, la gestión de corpus y la inteligencia artificial aplicada en este proyecto. Quevedo está publicado como software libre en GitHub1, y en la segunda parte de esta tesis se incluye la publicación académica que lo describe (capítulo 9) así como su documentación técnica (capítulo 10).
Pero, además de esto, he desarrollado software dirigido al usuario final, asegurando que los resultados de la investigación y de la tesis estén disponibles no sólo para investigadores y científicos, sino también para el público en general. Esta aplicación permite reconocer instancias nuevas de SignoEscritura, identificar sus elementos constituyentes y extraer su significado. Incorpora, además, un modelo interactivo 3D de la mano que facilita la comprensión de los grafemas manuales. Se presenta en forma de una aplicación web, publicada también como código abierto en Github2, y una demostración de su funcionamiento está disponible en línea3. El modelo 3D fue creado también por mí como parte de esta investigación, constituyendo otro resultado enmarcado dentro de los objetivos tanto de análisis teórico como de diseminación de los resultados en forma de software y artefactos computacionales.
Como es habitual, aunque hay una cierta linealidad en las dependencias de los distintos esfuerzos, no se desarrollaron secuencialmente, sino en paralelo, adaptándose a las necesidades y circunstancias del proyecto. Avances en un área posibilitaban o requerían trabajo en las demás, o incluso proporcionaban nuevo conocimiento que llevaba a replantear decisiones ya tomadas. Aun así, plantearemos los tres esfuerzos por separado y uno detrás de otro en las siguientes secciones para facilitar una comprensión clara y detallada.